香港大学&字节跳动联合推出:DanceGRPO!视觉生成技术新突破!
Reinforcement Learning (RL) 今天已经成为了微调生成式模型的一个重要的方法,现有的方法比如 DDPO 和 DPOK 存在一些固有的限制:当缩放到更大,更加多样化的 Prompt 集时,较难稳定优化,会限制其实用性。
Reinforcement Learning (RL) 今天已经成为了微调生成式模型的一个重要的方法,现有的方法比如 DDPO 和 DPOK 存在一些固有的限制:当缩放到更大,更加多样化的 Prompt 集时,较难稳定优化,会限制其实用性。
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。